Abordagens para Estimar Relevância de Relações Não-Taxonômicas Extraídas de Corpus de Domínio
نویسندگان
چکیده
This paper performs a comparison between two approaches to weight the relevance of extracted non-taxonomic relations found in domain corpora. The first approach computes the relevance according to the verb absolute frequency. The second approach computes the relevance according to the verb frequency and uniqueness in each corpus using tf-dcf relevance index, an index that takes into account the high frequency of verbs in the target corpus, and the low frequency in contrasting corpora. The preliminary results are evaluated for three domain corpora and the top relevant relations are evaluated by expert terminologists. Resumo. Este artigo apresenta uma comparação entre duas abordagens de ponderação de relevância de relações não-taxonômicas extraı́das de corpora de domı́nio. A primeira abordagem calcula a relevância de acordo com a frequência absoluta dos verbos. A segunda abordagem calcula a relevância de acordo com a frequência do verbo e sua especificidade em cada corpus utilizando o ı́ndice de relevância tf-dcf, um ı́ndice que leva em consideração a alta frequência no corpus alvo, e a baixa frequência em corpora contrastantes. Os resultados preliminares foram avaliados para três corpora de domı́nio e as relações mais relevantes foram avaliadas por terminologistas.
منابع مشابه
RePort - Um Sistema de Extração de Informações Aberta para Língua Portuguesa (Report - An Open Information Extraction System for Portuguese Language)
An emerging field of research in Natural Language Processing (NLP) proposes Open Information Extraction systems (Open IE). Open IEs follow a domain-independent extraction paradigm that uses generic patterns to extract all relationships between entities. In this work, we present RePort, a method of Open IE for Portuguese, based on the ReVerb, an approach for English. Adaptations of syntactic and...
متن کاملModelagem de Relações Conceituais para a Área Nuclear
The nuclear energy area is a complex domain involving a large number of disciplines, concepts and relations. Despite its long tradition in organizing, processing and dissemination of information, reflected in important databases and international information systems, in recent decades this field has not evolved satisfactorily regarding the development of tools to standardize terminology and, co...
متن کاملModelo orientado à meta para estabelecer relações de contribuição mútua entre Proveniência, Transparência e Confiança
Resumo. Estabelecer modelos de determinado domínio é um dos princípios básicos para uma construção de software com qualidade. Estes modelos facilitam a compreensão de realidades complexas, seus detalhes e interações de suas partes. Entre várias características, a Engenharia de Requisitos Orientada a Metas (GORE) sugere a modelagem de objetivos para expressar a razão das necessidades dos requisi...
متن کاملDescoberta Automática de Relações Não-Taxonômicas a Partir de Corpus em Língua Portuguesa
Ontology construction is a complex process composed by extraction tasks for domain concepts, as well as taxonomic and non-taxonomic relations among concepts. The extraction of non-taxonomic relations is the most neglected task, specially for Portuguese texts. Therefore, this paper presents a proposal for extracting non-taxonomic relations from Portuguese texts represented by a list of concepts ...
متن کاملGeometric Properties of Crumpled Wires and the Condensed Non-Solid Packing State of Very Long Molecular Chains
Aspectos geométricos associados com o empacotamento hierárquico e heterogêneo de arames amassados são revistos. O fenômeno recentemente descoberto de condensação de energia elástica de curvatura nessas estruturas é discutido e novos resultados são apresentados, com ênfase em leis de escala robustas. Examina-se a possível relevância destas leis nas propriedades conformacionais de cadeias molecul...
متن کامل